Chunking the Critic: SAC con Transformer y retornos N-paso
Descubre cómo un crítico con Transformer y retornos N-paso mejora el SAC en tareas de horizonte largo y recompensas dispersas, superando métodos estándar.
Descubre cómo un crítico con Transformer y retornos N-paso mejora el SAC en tareas de horizonte largo y recompensas dispersas, superando métodos estándar.
Doppler usa dos políticas (SEL y PLC) para asignar tareas y minimizar tiempos en grafos asíncronos.
Mejora la predicción neuronal con el algoritmo de evolución dirigida para niños con implantes cocleares, superando escasez de etiquetas y cambio de dominio.
Mejora la interpretabilidad del aprendizaje por refuerzo con RSA2C, un algoritmo kernelizado que usa atribuciones SHAP para entrenar actores y críticos con estabilidad y eficiencia.
Descubre cómo SlimSearcher optimiza agentes de búsqueda profunda, reduciendo costos computacionales hasta 58% sin sacrificar precisión.
Descubre CHDP, un marco que combina políticas de difusión cooperativas para optimizar acciones híbridas en RL, mejorando el rendimiento hasta un 19.3%.
Descubre Harness-1, un subagente de búsqueda de 20B que separa decisiones semánticas de la contabilidad. Logra un 0.730 de recall, superando a otros modelos abiertos.
Descubre cómo OPT* entrena LLMs con razonamiento paso a paso en optimización. Usa recompensas verificables y RL para espacios de búsqueda complejos.
¿Puede una IA expresar emociones? Un experimento con LLMs logra que digan sentir. Descubre los avances, riesgos y el impacto en la veracidad y ética.
¿Sabías que los agentes de búsqueda multimodal penalizan herramientas útiles? TAPO corrige este error con transferencia de crédito, mejorando el aprendizaje sin costo extra.
Edit-R2 usa RL contextual para edición de imágenes multiturno. Evita errores acumulados y dilución de contexto. Incluye benchmark MICE-Bench.
Aprende cómo la calibración por contexto y la entropía mejoran la detección de riesgos en agentes LLM frente a hackeos de recompensa.
CoT-Space explica el escalado interno del pensamiento lento en IA. Aprende cómo el aprendizaje por refuerzo optimiza las trayectorias de razonamiento en LLMs.
Descubre cómo EBM-RL optimiza el aprendizaje por refuerzo descompuesto para crear diálogos inmersivos en videojuegos de rol, mejorando atmósfera y autenticidad.
Descubre cómo un agente de aprendizaje por refuerzo aprende a atacar modelos de IA con mayor eficacia, aumentando el éxito de ataques de evasión hasta un 13.2%.
GRPO y recompensas de rúbrica mejoran respuestas cardíacas en LLMs pequeños: precisión sube a 50.2%, compitiendo con modelos 8x mayores.
Descubre cómo el aprendizaje por refuerzo refina planes híbridos de robots para garantizar una ejecución dinámicamente factible, superando las limitaciones de los planificadores tradicionales.
EEGDancer revoluciona la predicción de emociones continuas con EEG combinando VQ-VAE y aprendizaje por refuerzo. ¡Supera a métodos tradicionales!
Descubre cómo un enfoque multiaspecto genera datos de alta calidad y entrena LLMs para superar a Claude Sonnet en traducción literaria.
Descubre cómo un marco gamificado con agentes rojo y azul descubre fallos ocultos y mejora la seguridad de robots en entornos reales.